Structure-guided image completion aims to inpaint a local region of an image according to an input guidance map from users. While such a task enables many practical applications for interactive editing, existing methods often struggle to hallucinate realistic object instances in complex natural scenes. Such a limitation is partially due to the lack of semantic-level constraints inside the hole region as well as the lack of a mechanism to enforce realistic object generation. In this work, we propose a learning paradigm that consists of semantic discriminators and object-level discriminators for improving the generation of complex semantics and objects. Specifically, the semantic discriminators leverage pretrained visual features to improve the realism of the generated visual concepts. Moreover, the object-level discriminators take aligned instances as inputs to enforce the realism of individual objects. Our proposed scheme significantly improves the generation quality and achieves state-of-the-art results on various tasks, including segmentation-guided completion, edge-guided manipulation and panoptically-guided manipulation on Places2 datasets. Furthermore, our trained model is flexible and can support multiple editing use cases, such as object insertion, replacement, removal and standard inpainting. In particular, our trained model combined with a novel automatic image completion pipeline achieves state-of-the-art results on the standard inpainting task.
translated by 谷歌翻译
最近,Deep Models已经建立了SOTA性能,用于低分辨率图像介绍,但它们缺乏与现代相机(如4K或更多相关的现代相机)以及大孔相关的分辨率的保真度。我们为4K及以上代表现代传感器的照片贡献了一个介绍的基准数据集。我们展示了一个新颖的框架,结合了深度学习和传统方法。我们使用现有的深入介质模型喇嘛合理地填充孔,建立三个由结构,分割,深度组成的指南图像,并应用多个引导的贴片amatch,以产生八个候选候选图像。接下来,我们通过一个新型的策划模块来喂食所有候选构图,该模块选择了8x8反对称成对偏好矩阵的列求和良好的介绍。我们框架的结果受到了8个强大基线的用户的压倒性优先,其定量指标的改进高达7.4,而不是最好的基线喇嘛,而我们的技术与4种不同的SOTA配对时,我们的技术都会改善每个座椅,以使我们的每个人都非常偏爱用户,而不是用户偏爱用户。强大的超级分子基线。
translated by 谷歌翻译
对于多个实际应用,例如对象删除和图像编辑,图像介入是必不可少的任务。基于GAN的Deep Models大大改善了孔内结构和纹理的覆盖性能,但也可能产生意外的伪像,例如破裂的结构或颜色斑点。用户认为这些工件可以判断涂料模型的有效性,并修饰这些不完美的区域,以再次在典型的修饰工作流程中涂漆。受此工作流程的启发,我们提出了一项新的学习任务,以自动对知觉伪像的自动分割,并将模型应用于介入模型评估和迭代精致。具体而言,我们首先通过在最新的介入模型的结果中手动注释感知工件来构建一个新的镶嵌工件数据集。然后,我们在此数据集上训练高级细分网络,以可靠地将贴有映像的插入式伪像。其次,我们提出了一个称为感知伪影比率(PAR)的新的可解释的评估度量,该度量是令人反感的被涂料区域与整个原始区域的比率。 PAR证明了与实际用户偏好的密切相关性。最后,我们通过将我们的方法与多种最新涂料方法相结合,进一步将生成的掩码用于迭代图像介入。广泛的实验表明,在不同方法中,伪影区域的始终减少和质量改进。
translated by 谷歌翻译
最近的图像入介方法取得了长足的进步,但在处理复杂图像中的大孔时,通常很难产生合理的图像结构。这部分是由于缺乏有效的网络结构可以捕获图像的远程依赖性和高级语义。我们提出了级联调制GAN(CM-GAN),这是一种新的网络设计,由编码器组成,该设计由带有傅立叶卷积块的编码器组成,该块从带有孔的输入图像中提取多尺度特征表示,并带有带有新型级联全球空间调制的双流式解码器在每个比例尺上块。在每个解码器块中,首先应用全局调制以执行粗糙和语义感知的结构合成,然后进行空间调制以进一步以空间自适应的方式调整特征图。此外,我们设计了一种对象感知的培训方案,以防止网络在孔内部幻觉,从而满足实际情况下对象删除任务的需求。进行了广泛的实验,以表明我们的方法在定量和定性评估中都显着优于现有方法。请参阅项目页面:\ url {https://github.com/htzheng/cm-gan-inpainting}。
translated by 谷歌翻译
In neural networks, it is often desirable to work with various representations of the same space. For example, 3D rotations can be represented with quaternions or Euler angles. In this paper, we advance a definition of a continuous representation, which can be helpful for training deep neural networks. We relate this to topological concepts such as homeomorphism and embedding. We then investigate what are continuous and discontinuous representations for 2D, 3D, and n-dimensional rotations. We demonstrate that for 3D rotations, all representations are discontinuous in the real Euclidean spaces of four or fewer dimensions. Thus, widely used representations such as quaternions and Euler angles are discontinuous and difficult for neural networks to learn. We show that the 3D rotations have continuous representations in 5D and 6D, which are more suitable for learning. We also present continuous representations for the general case of the n dimensional rotation group SO(n). While our main focus is on rotations, we also show that our constructions apply to other groups such as the orthogonal group and similarity transforms. We finally present empirical results, which show that our continuous rotation representations outperform discontinuous ones for several practical problems in graphics and vision, including a simple autoencoder sanity test, a rotation estimator for 3D point clouds, and an inverse kinematics solver for 3D human poses.
translated by 谷歌翻译
Point cloud analysis is receiving increasing attention, however, most existing point cloud models lack the practical ability to deal with the unavoidable presence of unknown objects. This paper mainly discusses point cloud analysis under open-set settings, where we train the model without data from unknown classes and identify them in the inference stage. Basically, we propose to solve open-set point cloud analysis using a novel Point Cut-and-Mix mechanism consisting of Unknown-Point Simulator and Unknown-Point Estimator modules. Specifically, we use the Unknown-Point Simulator to simulate unknown data in the training stage by manipulating the geometric context of partial known data. Based on this, the Unknown-Point Estimator module learns to exploit the point cloud's feature context for discriminating the known and unknown data. Extensive experiments show the plausibility of open-set point cloud analysis and the effectiveness of our proposed solutions. Our code is available at \url{https://github.com/ShiQiu0419/pointcam}.
translated by 谷歌翻译
神经肌肉疾病,例如脊柱肌肉萎缩(SMA)和Duchenne肌肉营养不良症(DMD),导致6,000名儿童中有1例的渐进性肌肉变性和运动功能丧失。传统的上肢运动功能评估不能定量测量患者的性能,这使得很难跟踪进度的增量变化。评估神经肌肉疾病儿童的运动功能特别具有挑战性,因为他们在实验过程中可能会紧张或兴奋,或者简直太年轻而无法遵循精确的说明。这些挑战转化为混杂因素,例如执行臂卷曲的不同部分较慢或更快(相位变异性),从而影响评估的运动质量。本文使用曲线注册和形状分析来暂时对齐轨迹,同时提取平均参考形状。距这种平均形状的距离用于评估运动质量。所提出的指标是混杂因素(例如相位变异性)的不变性,同时提出了几种临床相关的见解。首先,控制和患者人群的功能分数在统计上存在显着差异(p $ = $ 0.0213 $ \ le $ 0.05)。接下来,患者队列中的几名患者能够与健康队列进行运动,反之亦然。我们的指标是根据可穿戴设备计算的,与Brooke的分数有关((P $ = $ 0.00063 $ \ le $ $ 0.05))以及基于功能测定法的电动机功能评估((P $ = $ = $ 0.0006 $ \ le $ 0.05)) 。这些结果表明了日常生活中无处不在的运动质量评估的希望。
translated by 谷歌翻译
常规的共呈含量对象检测(COSOD)具有很强的假设,即\ enquote {同一组的每个图像中存在一个共同的显着对象}。但是,偏见的假设与一组图像中可能部分或完全不存在共同升压对象相矛盾。我们提出了一种基于随机抽样的广义COSOD训练(GCT)策略,以提炼出对COSOD模型的相互间距间缺失的意识。此外,GCT中固有的随机抽样过程可以生成高质量的不确定性图,我们可以通过该图进一步补充较不容易自信的模型预测,这些预测容易容易定位非共同的显着对象。为了评估COSOD模型的概括能力,我们提出了两个新的测试数据集,即可口可分子和可口可乐,其中一个共同的显着物体部分存在于前者中,并且在后者中完全不存在。广泛的实验表明,我们提出的方法显着提高了COSOD模型在两个新数据集上的概括能力,同时并没有在常规COSOD设置下对其性能产生负面影响。代码可在https://github.com/carlisle-liu/gcosod上找到。
translated by 谷歌翻译
可解释的人工智能方法(XAI)用于地球科学应用中,以洞悉神经网络(NNS)的决策策略(NNS),强调了输入中哪些功能对NN预测的影响最大。在这里,我们讨论了我们的教训,了解到将预测归因于输入的任务没有单个解决方案。相反,归因结果及其解释在很大程度上取决于XAI方法使用的考虑的基线(有时称为参考点)。到目前为止,这一事实在文献中被忽略了。该基线可以由用户选择,也可以是通过方法S算法中的构造设置的,通常没有用户意识到该选择。我们强调说,不同的基线可以为不同的科学问题提供不同的见解,因此应相应地选择。为了说明基线的影响,我们使用SSP3-7.0场景强迫的历史和未来气候模拟的大量合奏,并训练完全连接的NN来预测集团和全球均值温度(即强迫全球变暖信号)给定单个合奏成员的年度温度图。然后,我们使用各种XAI方法和不同的基线将网络预测归因于输入。我们表明,在考虑不同的基准时,归因在于回答不同的科学问题,因为它们会有很大差异。我们通过讨论有关基准在XAI研究中使用的一些重要含义和考虑因素来结束。
translated by 谷歌翻译
智能辅导系统的研究一直在探索以数据驱动的方式提供有效的适应性帮助。尽管在学生寻求帮助时已经做了很多工作来提供自适应帮助,但他们可能不会最佳地寻求帮助。这导致人们对积极的适应性援助的兴趣日益加剧,在这种援助的情况下,导师在预测斗争或非生产力的情况下提供了未经请求的援助。确定何时以及是否提供个性化支持是一个众所周知的挑战,称为援助困境。在开放式领域中解决这一难题特别具有挑战性,在开放式领域,可以有几种解决问题的方法。研究人员已经探索了确定何时主动帮助学生的方法,但是这些方法中很少有人考虑使用提示。在本文中,我们提出了一种新颖的数据驱动方法,以结合学生在预测他们的帮助需求时的提示。我们探索了它在智能导师中的影响,该导师涉及逻辑证明的开放式且结构良好的领域。我们提出了一项对照研究,以根据纳入学生提示的帮助的预测来调查自适应提示政策的影响。我们展示了经验证据,以支持这样的政策可以为学生节省大量的培训时间,并与没有主动干预的对照相比,可以改善后测试结果。我们还表明,纳入学生的提示可以显着提高适应性提示政策在预测学生的帮助方面的功效,从而降低培训的非生产力,减少可能的帮助避免,并增加可能的帮助适应性(在可能会在可能会获得可能会得到的情况下获得更高的机会,需要)。我们以有关该方法受益的领域的建议以及采用要求。
translated by 谷歌翻译